查看原文
其他

论文荐读 | 英语复句的句法复杂性有规律吗?

刘金路 杨楠 计量语言学
2024-09-04

从句,就像英语语法世界中的“变色龙”,总会以多变的形态出现在英语学习者的视野中,让人既爱又恨。从从句密度和嵌入深度的角度看,英语复句的复杂性有上限阈值吗?本期论文荐读,我们一起来看看《外国语》上新发表的《英语复句句法复杂性的计量研究》。



必大家从中学开始就不断接触各式各样的从句,它们纷繁复杂,变幻莫测,随着学习的进一步深入,我们还会遇到非限定动词(如分词、动名词和不定式),让人感到英语学习的道路上荆棘更多,挑战更大。随着步入英语高阶学习,我们会发现,非限定动词其本质上是从句的简化版,它们以更简洁的方式,传达着更复杂的意思。同时,翻阅任意一本英语语法书,我们也会惊奇地发现,从句与非限定动词两个部分占到了语法书一半以上的篇幅。英语从句的重要性不言而喻


尽管如此,从句不可独立存在,必须依附于主句形成主从结构。由此,复句(complex sentence)这个名词就产生了,它是由主句加一个或多个从句而构成的句子类型(Quirk et al. 1985)。那为何一定要有复句的存在呢?请看下面的例句:


1) He said some words.

2) These words made sense.

3) What he said made sense.


显然,前两句是简单句,而第三句则是前两句的合成,即含有名词性从句的复句。通过主从结合,可以构建出句子不长但表达力更强的句法结构,这或许就是很多中学老师们一再强调“句式写复杂,得分就越高”的原因之一。


句式越复杂就越好吗?答案或许没那么简单。句法结构复杂在一定程度上也会带来理解上的困难。在交际过程中,说话人和听话人会努力寻找认知负荷的最小化以达到某种程度的平衡。从这个角度看,英语复句的句法复杂性不会无限制地增加,会在一定程度上受到人类认知资源的限制,从而将其难度控制在一定的范围之内。既然如此,作为复句核心部件的从句数量就不会无休止的增加,与之成正相关的计量指标即从句密度(clausal density),密度越大表示复句含有的从句数量就越多,那是不是从句密度越小就会越简单呢?这个问题还要考虑嵌入深度(embedding depth),即一个从句嵌入另一个从句中的深度影响。比如,“If I exercise my leg more, maybe I can use a cane when I’m big. ”与“The book the student the teacher taught bought disappeared.”这两个语料库中的复句中均包含了两个从句,即从句密度为2,但第二个复句明显更难理解,原因就在于它的从句嵌入深度为2即一个关系从句嵌入到了上一层关系从句中,使得复句的句法结构更复杂了。由此,嵌入深度可以作为复句句法复杂性的第二个测量指标。


从句密度与嵌入深度均是Karlsson(2007)提出的,在下面的图 1 中,该复句含有两个从句,因此,从句密度为2。It是形式主语,而真正的主语是由 that引导的主语从句,它嵌入了一个由 if引导的条件状语从句,因此,嵌入深度为2。

图1  从句密度与嵌入深度的分析示例


英语复句的句法复杂性究竟是怎样的呢?为了解开这层面纱,作者带着从句密度与嵌入深度这两个“小兄弟”去语料库中去探了究竟。


想象一下,复句的学习就像是搭建积木的过程,随着语言能力的提升,我们会堆砌出越来越复杂的结构,但积木也有其搭建的极限,而复句的句法复杂性也如此,这是由人有限的认知资源所决定的,会存在一个阈值。在Brown和LOB语料库中,从句密度为1的复句有27930个,从句密度为2的有10290 个,这两类已占到了复句总数的 89.6%;嵌入深度为1的复句有34221个,嵌入深度为2的有7713个,这两类已占到了复句总数量的 98.3%,这些数据清晰地告诉我们,文字产出的过程中,复句的使用是绕不开的,但人们却在倾向于最大化地去使用那些相对更简单的复句。


仅在Brown 语料库中存在一个复句的从句密度值为13,其余复句的从句密度都遵循着一个普遍趋势即最大阈值不会超过9。当这个阈值为9时(从句密度为9),作者在Brown和LOB两个语料库中分别找到了2个复句,其嵌入深度依次为2、2、2和3。不难看出,当从句密度增大时,从句的嵌入深度就会随之变小,使得其所在复句的句法复杂性达到某种程度的平衡状态,让认知负荷的波动保持在合理区间。这就像是当我们尝试堆叠更多的积木时,也会自然而然地减少每块积木的层数,以保持整个结构的稳定性


图2  从句密度的分布


在Brown和LOB这两个语料库中,作者发现,英语复句的嵌入深度最大阈值是4(Brown库中有7句;LOB库中有37句)。一个从句又嵌入了另一个从句后产生的复句在句法复杂性上是明显增大的,由于工作记忆的生理限制,多层嵌入从句是极易引起语义混淆的,不利于表达清晰的意义,因此,嵌入深度达到4时就像是达到了语言表达的“天花板”,再有更大扩展空间的可能性不大。我们的语言构造,就像是一座精心设计的建筑,虽然复杂,但也需要在稳定性和创造性之间找到完美的平衡


图3  嵌入深度的分布


明确了复句中的从句密度与嵌入深度的问题,我们也会好奇:人们会在哪些语体中更频繁地使用复句呢?


日常生活中,大家可能深有感触,在正式语体如学术文章或者官方文件,我们可能会遇到从句密度和嵌入深度更大的句子,就像是在一个房间内精心布置了许多复杂的装饰和层次分明的家具。这些语体的风格倾向于使用更长、更复杂的句子以展示出更加严谨或严肃的一面。相反,在日常交流或者非正式的写作中,比如短信、社交媒体帖子或是朋友间的对话,我们更倾向于使用简单、直接的句子,就像是在一个房间内只放置必要的家具,以保持空间的开阔和轻松。


这项研究的结果显示,从句密度与嵌入深度在两个语料库各自的十五种语体中的概率分布几乎是重叠的,趋势一致。这些数据表明,无论何种文本,所使用的复句的从句密度与嵌入深度都呈现出一致性,不会受到特定语体的风格因素差异的显著性影响


图4 十五种语体中的从句密度和嵌入深度的分布


此外,我们知道,语言是一个复杂的自适应动态系统,但它本质上是由人类自身驱动的,系统的新结构、状态或功能的出现会通过自组织的方式适应变化的语言环境。在本研究中,作者发现,在任意一个完整的语体文本中,随着从句密度和嵌入深度的不断增大,复句出现的数量占比会出现明显的下降趋势,从而使得文本的整体复杂性保持在一定的范围,这符合齐普夫的“省力”原则。该原则认为,人们普遍会以最小的代价换取最大的收益,这是指导人类行为的根本性原则。英语复句的句法复杂性存在最小化趋势,这符合人类的基本认知规律,语言行为的产生会受制于认知负荷。



综上所述,本研究通过量化分析有三点新的发现。首先是一个英语复句中的从句嵌入数量的最大值为9个当出现从句嵌入从句的嵌套结构时,最深为4层,这也是国际文献中所检索到的最大深度值。其次,在不同的语体中,英语复句的使用趋势一致,没有显著性差异,换句话说,英语复句的使用不会因为语体的变化而变化。最后,人们的语言产出过程中,英语复句的使用是必然,绕不开,但人们却一直在最大化地去使用那些相对更简单的复句类型,从而使得任意完整文本的整体复杂性保持在合理的难度区间。


这么看来,复句是不是也没那么复杂了呢?


·END·

参考文献略。

欢迎对本文感兴趣的读者阅读、引用原文


原文引用信息:

刘金路, 杨楠. 英语复句句法复杂性的计量研究[J]. 外国语, 2024, 47(3): 40-52.


您可能还想看

SEE ALSO

论文荐读 | 德语词长的跨语体历时演化研究

论文荐读|机器翻译痕迹究竟是什么?

论文荐读 | 苹果发布会里的语言奥秘

论文荐读 | 大语言模型的语用能力探索——从整体评估到反语分析

论文荐读 | 从细读到远观:数智时代人文研究的新路向

“在看”我吗?

个人观点,仅供参考
继续滑动看下一个
计量语言学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存